在Stata计量回归之前,数据的清理

您所在的位置:网站首页 stata ssc install nmissing无法安装 在Stata计量回归之前,数据的清理

在Stata计量回归之前,数据的清理

2023-05-26 23:53| 来源: 网络整理| 查看: 265

Stata

计量回归之前,数据的清理

 

为什么要做数据清理呢?因为

90%

以上的原始数据因为各种原因

都存在错误。如果在数据分析前,没有把这些问题清理好,很有可能

导致后面数据分析不出真实的结果。数据清理就是把“脏”的“清理

掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括

检查数据一致性,处理无效值和缺失值等。

 

数据清理是对数据进行重新审查和校验的过程,目的在于删除重

复信息、纠正存在的错误,并提供数据一致性,然后进行必要的权重

调整等,以满足后续的计量回归的需要。目前国内各大研究机构释放

出来的数据很多,如

CHNS

CGSS

CFPS

CHFS

等等,那么数据清

理需要进行哪些步骤呢?

 

数据清理第一步:整体数据查看

 

一、读取数据——数据转码

Unicode

 

比如常见的我们在

stata14

进行数据读取时,结果是乱码。然后用

Unicode 

analyze 

对其进行分析,结果说该文件需要进行

Unicode 

translate

。此时,关键是要设对需要转换文件的原始编码类型。

 

例如,如果原始数据中变量标签为中文,用

stata14

打开时,变量

标签无法识别。此时,需要设定编码类型。命令为

 Unicodeencoding 

set gb18030

,即设定编码类型为国标

18030

,即简体中文。

 

然后,用

Unicode analyze filename. dta 

分析文件是否需要转换,

如结果为需要,那么继续用

Unicode translate filename. dta

来转换

数据文件中不可识别的中文汉字。成功以后,原始数据中不能识别的

中文则可以在

stata14

中识别了。

 

其实,在实际数据读取过程中,我们只是偶然会遇到这种情况。

更多的情况是各种不同数据格式之间的转换,比如一些数据库的原始

数据是

SAS

数据或者

SPSS

数据甚至直接就是

Excel

数据,此时我们

需要转换成

Stata

可以读取的

dta

格式,这里

Excel

数据可以用

Stata

软件直接转换,其他的推荐

Stata translate

软件进行转换。

 

二、查看识别变量——

isid

duplicates

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3